LViT 模型主要用于医学图像分割,是一个双 U 结构,由一个 U 形 CNN 分支和一个 U 形 Transformer 分支组成。CNN 分支负责图片输入和预测输出,ViT 分支用于合并图像和文本信息,利用 Transformer 处理跨模态信息。U 形 ViT 分支设计用于合并图像特征和文本特征。第一层DownViT模块接收文本特征输入和来自第一层DownCNN模块的图像特征输入。特定的跨模态特征合并操作由以下等式表示:后续 DownViT 模块既接收来自上层 DownViT 模块的特征,又接收来自相应层的 DownCNN 模块的特征。然后,对应尺寸的特征通过 UpViT 模块传输回 CNN-ViT 交互模块。并且该特征与相应层的 DownCNN 模块中的特征合并。这将最大限度地提取图像全局特征,并避免由于文本注释的不准确性而导致的模型性能振荡。PLAM模块的设计如上图b所示,旨在保留图像的局部特征,并进一步合并文本中的语义特征;为了扩展 LViT 的半监督版本,LViT使用指数伪标签迭代机制(EPI)。其中 表示模型 的预测,通过不简单地使用一代模型预测的伪标签作为下一代模型的目标从而避免伪标签质量下降。因此,EPI可以逐步优化模型对每个未标记像素的分割预测结果,并对噪声标签具有鲁棒性。为了进一步利用文本信息来指导伪标签的生成,设计了Languane-Vision Loss函数。首先计算对应于伪标签的文本特征向量和用于对比标签的文本特征向量之间的余弦相似性TextSim。之后根据TextSim,选择相似度最高的对比文本,并找到与该文本对应的图像mask。然后再计算图片的伪标签和对比标签之间的相似性:对比标签主要提供近似位置的标签信息,而不是边界的细化。因此 的主要目的是避免差异显著的分割错误或错误标记病例。因此只在未标记的情况下使用LV损失,在没有标签的情况下, 可以避免伪标签质量的急剧恶化。Adapting Pretrained Vision-Language Foundational Models to Medical Imaging Domains
http://arxiv.org/abs/2210.04133
目前许多生成模型虽然表现出了出色的生成能力,但它们通常不能很好地推广到特定领域,例如医学图像领域。但是,利用生成模型生成一些医学图像出来可能有助于缓解医疗数据集的匮乏。因此,这项工作主要是研究将大型预训练基础模型的表示能力扩展到医学概念,具体来说,本文是利用扩散模型stable diffusion生成医学图像。主要是利用了稳定扩散模型的架构,将整个设定转化为了放射学的图像和文本。具体流程如上图二所示,给定随机噪声进行去噪,在这个过程中会有文本作为条件去影响去噪的过程,最后使用VAE的解码器进行图像的生成。整个工作是比较偏实验和验证性的。主要从stable diffusion的各个模块进行训练,包括VAE、Text Encoder、Textual Projection、Textual Embeddings Fine-tuning、U-Net Fine-tuning。通过两个简单的prompt:“肺部射线照片”和“带有可见胸腔积液的射线照片”来测试不同设置下的生成能力。并通过定量的FID指标进行评估。从定性和定量的结果来看,表现最好的是U-Net训练的第二种设定,能够生成较好的图片的同时还能匹配文本的语义,能够理解有无“胸腔积液”的区别。Generalized radiograph representation learning via cross-supervision between images and free-text radiology reports【Natural Machine Intelligence 2022】
https://arxiv.org/abs/2111.03452
本文提出REFERS模型,主要通过在图像和文本对上进行交叉监督学习去得到放射学表征。主要考虑到每项患者研究通常都有一份自由文本报告但是通常涉及不止一张 X 光片。首先通过radiograph transformer来提取不同视图的相关特征表示。为了充分利用每份报告的信息,设计了一个基于注意力机制的视图融合模块,以同时处理患者研究中的所有射线照片并融合多个特征。接下来进行交叉监督学习,从自由文本放射学报告中获取监督信号。主要通过两个任务:reportgeneration和study–report representation consistency reinforcement实现监督。第一项任务采用原始放射学报告中的自由文本来监督radiograph transformer的训练过程。第二项任务加强了患者研究的视觉表示与其相应报告的文本表示之间的一致性。第一项任务主要通过report transformer在给定图像和前面的token的条件下进行token的生成:第二项任务通过图像和文本的对比来实现。RoentGen: Vision-Language Foundation Model for Chest X-ray Generation